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摘要 在 机 器 学 习 和 数学 优化 研究 领域 ， 深 度 学 习 优化 问题 易 优 性 的 数学 解释 极 具 挑战 性 ， 损 失 
函数 存在 高 维 、 非 凸 、 不 光滑 等 特质 性 ， 然 而 也 能 通过 梯度 下 降 法 搜索 到 全 局 最 优 值 ， 损 失 函 数 
地 貌 分 析 成 为 揭示 深度 学 习 优化 问题 易 优 性 本 质 的 重要 研究 方向 ， 为 促进 可 解释 、 可 信 的 深度 学 
习 在 更 关键 领域 的 应 用 ， 本 文 回顾 了 损失 函数 地 貌 特 征 (局 部 极 小 点 的 数量 和 空间 分 布 、 最 优点 
之 间 的 连通 性 、 临 界 点 的 最 优 性 )、 梯 度 下 降 法 收敛 性 、 以 及 损失 函数 地 貌 可 视 化 等 方面 的 研究 
进展 和 挑战 . 
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Loss landscape analysis for deep learning: A survey 
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Abstract In the filed of machine learning and mathematical optimization, it is a challenge to 
mathematically explain optimality of loss function for deep learning. Loss function is high-dimensional, 
non-convex, and non-smooth. It was, however, observed that gradient descent could reach zero training 
loss of this highly non-convex function. Loss landscape analysis is critical to reveal reasons why deep 
networks are easily optimizable. We reviewed the advance on loss landscape analysis, such as 
landscape features (number and spatial distribution of local minima, connectivity between global 
optima, and global optimality of critical points), convergence of gradient descent, and visualization of 
loss landscape. This survey aimed to promote interpretable and reliable deep learning in critical 
applications. 
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深度 学 习 通 过 由 神经 元 、 连 接 权 、 偏 置 值 与 激活 函数 组 成 的 多 层 网 络 结构 中 ， 逐 层 将 低层 
特征 表达 转化 为 高 层 特征 表达 ， 借 由 最 优 或 较 优 的 输入 到 输出 的 映射 ， 完 成 复杂 的 表示 学 习 任 
务 2 比如， 深度 学 习 在 识别 肺癌 时 ， 利 用 监督 学 习 、 半 监督 学 习 甚至 无 监督 学 习 来 进行 特征 
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学 习 ， 借 由 较 低 层 识 别 病 灶 边 缘 和 边缘 的 组 合 ， 利 | 
训练 数据 缺乏 、 计 算 能 力 弱 等 关键 困 
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损失 函数 是 以 网 络 参数 为 因 变 量 的 非 负 函 数 ， 度 量 神经 网 络 在 表示 学 习 中 输出 值 与 真实 但 


难 后 


的 差异 . 深度 学 习 利 用 梯度 下 降 等 优化 算法 ， 调 节 网 络 参数 
直至 网 络 的 输出 值 与 真实 值 一 致 或 接近 ， 此 时 网 络 实现 了 从 输入 到 输 
性 质 ， 对 优化 理论 和 算法 而 


损失 函数 存在 高 给 


BL 非 凸 和 不 光滑 等 困难 


深层 神经 网 络 进行 表示 学 习 时 ， 


化 的 一 阶梯 度 下 降 法 


个 让 


I| 练 深度 节 


] 较 高 层 进行 概念 识别 © 4， 在 死 服 了 梯度 
， 多 种 深度 学 习 模 型 被 成 功 应 用 于 计算 机 视 
医学 图 像 分 析 等 ， 并 在 特定 任务 上 的 性 能 超过 了 有 经 验 的 人 类 专家 © 


以 损失 函数 最 小 化 为 优化 


出 的 最 优 映射 中 . 


训练 损失 9. 梯度 下 降 法 实现 零 训练 损失 的 现象 ， 赋 予 了 深度 网 络 良好 的 拒 


而 ， 相 关 数 学 优化 理论 匮乏 ， 诸 多 五 
其 中 ， 用 于 解释 深度 网 络 具 备 较 强 表示 能 力 的 过 参数 化 8 和 万 能 逼近 定理 


度 下 降 法 实现 零 训练 损失 的 现象 


深度 学 习 优 化 问题 最 优 性 的 数学 解释 是 极 具 提 
化 等 领域 的 学 者 开始 分 析 深 度 学 习 损失 函数 地 貌 特征 ， 
经 过 五 年 多 的 发 展 ， 在 损失 函 


学 解释 


地 貌 可 视 化 等 三 方面 取得 ] 
问题 本 质 、 刻画 最 优 解 结构 性 质 、 分 析 优 化 算法 收敛 性 
习 损 失 函 数 地 貌 分 析 研 究 进 展 ， 给 出 了 
第 二 章 是 关于 损失 函数 和 


本 文安 排 如 下 : 


究 一 直 在 探究 这 一 有 悖 于 优化 理 


标 ， 


究 造 成 了 挑战 .利用 
秘 的 现象 是 : 针对 非 凸 的 损失 函数 ， 即 使 采用 随机 初始 
经 网 络 ， 也 能 使 损失 函数 在 训练 集 上 收敛 到 全 局 最 优 值 ， 即 零 
合 学 习 能 力 ， 然 


论 的 经 验 观 察 背后 的 原因 . 


数 地 貌 特征 分 析 、 梯度 下 降 法 收敛 怕 


KEIER. RE 


用 临 的 


貌 特征 分 析 研 究 进 展 ; 


化 研究 进展 ;第 六 章 给 出 挑战 和 进 


2. 预备 知识 
2.1 损失 函数 


第 四 章 给 出 梯度 下 降 法 
步 的 研究 . 


损失 函数 定义 为 


d,a PET 
yi sR Nd, 维 向 量 ， 


H LOY Ji) 是 样本 (x;,y,) 的 损失 函数 ， 


经 网 络 在 训练 样本 集 D = {x Yih 


的 函数 ， 其 中 Wi 为 第 i ABEER, b 为 第 i 层 节 点 偏 置 值 向 量 
连续 型 的 表示 学 习 任务 ， 公 式 (2) 的 二 分 类 交叉 炉 损 失 函 数 沼 月 


k 战 的 研究 ， 自 2015 4 


的 有 效 数学 分 析 工 


挑战 ， 并 展望 了 未 来 的 研究 方向 . 


2， 无 法 解释 梯 


起 ， 机 器 学 习 、 数 学 优 
尝试 给 出 深度 学 习 优化 问题 易 优 性 的 
分析、 以 及 损失 函数 
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学 习 损 失 函 数 地 貌 分 析 已 成 为 揭示 深度 学 习 优 化 
.本文 回 顾 了 深度 学 


梯度 下 降 法 的 预备 知识 ; 第 三 章 给 出 损失 函数 地 


收敛 性 分 析 进 展 ; 第 五 前 给 4H 


L(yi, 9i) =|| yi -ĵi I 


L(y;, 9i) = Cy; log y; +(1— yi)log( — y;)) 


x, 和 罗 为 实际 输入 和 标签 ，x RO d, HE 


损失 函数 地 貌 可 视 


上 的 误差 ， 是 网 络 参数 0 = (Wb) 


ASDA L 损失 函数 常 
月 于 离散 型 的 表示 学 习 任 务 


IF 


向 量 


Ji = f(xi10) 是 在 给 定 参数 9 和 实际 输入 xi 时 的 网 络 输出 的 标签 预测 值 ， 


Xe Rs" 表示 n 个 输入 x 作为 列 向 量 组 成 的 数据 矩阵 ，Y e RO" 表示 n 个 标签 yi 作为 列 向 


组 成 的 标签 矩阵 ，Y e 


RO 表示 n 个 网 络 输出 作为 列 向 量 组 成 的 输出 预测 矩阵 . 


损失 函数 在 数据 生成 分 布 上 的 期 望 最 小 化 为 


I (0) = Ex yp LO F10) 


其 中 Paaa 是 训练 样本 集 的 分 布 . 


E 
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(3) 


在 给 定 训练 集 上 ， 只 能 计算 经 验 风 险 %(2) ， 即 损失 函数 在 训练 集 上 的 平均 损失 : 
二 
RO= 7 LHI) Db FD (4) 


遵循 经 验 风险 最 小 化 的 原则 ， 找 到 最 优 O* ， 使 得 在 训练 集 上 的 平均 损失 最 小 
O* = argmin R(A) (5) 
0 


损失 函数 的 参数 维度 非常 高 . LeNet-5 HHA 6 万 参数 ，ResNet10 PAA 1 和 干 万 个 的 参数 ， 
AlexNet 4A 6 千 万 个 的 参数 ， 而 VGG16 吧 的 参数 量 约 为 12. 

损失 函数 是 非 凸 函数 .Kawaguchi 吗 证 明了 深层 神经 网 络 的 损失 函数 存在 没有 负 特 征 值 的 
临界 点 ， 损 失 函 数 不 具 备 凸 性 .Dauphin 等 四 发 现 鞍 点 与 局 部 极 小 点 数量 的 比值 随 函 数 维度 增 
加 而 指数 级 增加 ， 鞍 点 处 的 损失 函数 值 较 大 ， 且 鞍点 的 邻 域 是 较 大 的 平坦 区 域 ， 鞍 点 处 具备 较 
强 的 非 凸 性 

损失 函数 不 是 严格 的 光滑 函数 . 比如， 激活 函数 ReLU 在 零点 处 不 可 导 . 为 了 便于 进行 反 
向 传播 计算 ， 定 义 该 函数 在 零点 处 的 导数 值 为 零 . 

损失 函数 存在 高 维 、 非 凸 和 不 光滑 等 困难 性 质 ， 对 最 优 性 的 数学 解释 带 来 了 极 大 的 挑战 . 
2.2 梯度 下 降 法 

梯度 下 降 法 是 常用 的 神经 网 络 参数 更 新 算法 趾 ， 根 据 参 数 更 新 时 需要 的 数据 量 不 同 ， 梯 度 
下 降 法 可 以 分 为 : 批量 梯度 下 降 法 (Batch Gradient Descent，BGD)、 随 机 梯度 下 降 法 (Stochastic 
Gradient Descent, SGD) 和 小 批量 梯度 下 降 法 (Mini-batch Gradient Descent, MGD). BGD 在 获得 所 
有 样本 的 梯度 后 对 网 络 参数 进行 更 新 ，SGD 则 每 次 从 训练 集中 随机 选择 一 个 样本 进行 学 习 ， 学 
JEER, BRAS. MGD 每 次 从 训练 集中 选取 m 个 样本 (m < n)， 降 低 了 收敛 震荡 性 ， 但 需 
选取 合适 的 样本 数量 . 


3. 损失 函数 地 貌 特 征 分 析 


本 节 回 顾 了 利用 代理 模型 、 和 矩阵 分 析 、 随 机 分 析 、 微 分 几何 等 数学 分 析 工 具 对 深度 学 习 损 
失 函 数 地 貌 特征 进行 分 析 的 进展 ， 从 局 部 极 小 点 的 数量 与 空间 分 布 、 全 局 最 优点 之 间 的 连通 性 、 
临界 点 的 最 优 性 等 方面 理解 损失 函数 地 貌 . 

3.1 局 部 极 小 点 的 数量 与 空间 分 布 

局 部 极 小 点 的 数量 与 空间 分 布 有 助 于 刻画 问题 的 优化 难度 ， 由 于 损失 函数 的 高 维特 性 ， 导 
致 无 法 直接 获得 这 类 有 益 信 息 ， 一 些 研 究 致力 于 使 用 代理 模型 近似 损失 函数 ， 以 获得 损失 函数 
局 部 极 小 点 的 数量 与 空间 分 布 等 性 质 e. 

Choromanska 等 [3 发 现 了 深层 线性 神经 网 络 的 损失 函数 与 自 旋 玻璃 模型 的 哈密 顿 量具 有 相 
似 的 性 质 ， 高 维 损失 函数 的 低 指数 临界 点 形成 了 一 个 分 层 的 结构 ， 临 界 点 也 是 局 部 极 小 点 ， 且 
立 于 以 全 局 最 优点 为 下 界限 定 的 一 个 有 界 区 域 中 .在 该 有 界 区 域外 ， 找 到 低 指数 临界 点 的 概率 
随 着 损失 函数 维度 的 增加 而 指数 阶 降 低 ，Becker 和 Zhang 中 在 Choromanska 等 3 的 基础 上 ， 利 用 
随机 矩阵 和 代数 几何 ， 发 现 了 损失 函数 与 球形 旋转 玻璃 模型 的 哈密 顿 量 同 分 布 ， 将 损失 函数 表 
示 成 为 网 络 深度 的 函数 . 当 神 经 网 络 参 数 数量 保持 不 变 时 ， 通 过 增加 网 络 深度 ， 损 失 函 数 的 临 
界 点 数量 减少 ， 最 优点 在 参数 空间 中 更 加 聚集 ， 从 而 使 得 损失 函数 更 容易 优化 .Cooper Fil 
微分 几何 中 的 Sard's 定 理 ， 证 明了 ReLU 激 活 函 数 的 全 连接 神经 网 络 损失 函数 的 临界 点 集 为 非 空 
子 流 形 ， 该 子 流 形 的 维 数 是 参数 数量 与 样本 个 数 的 差 值 
3.2 最 优点 之 间 的 连通 性 

探索 最 优点 之 间 的 连通 性 或 可 达 性 ， 有 助 于 刻画 最 优点 在 空间 中 的 分 布 特征 ， 并 解释 损失 
函数 的 易 优 性 . 
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参数 ， 则 新 网 络 在 训练 集 上 的 损失 函数 值 与 原 网 络 几乎 一 致 . 这 个 发 现 为 参数 不 同 但 具有 相同 
表示 学 习 能 力 的 深度 网 络 提供 了 一 种 新 的 几何 学 解释 . Nguyen 5 利用 了 隐藏 层 输出 线性 独立 、 
连通 集合 等 性 质 ， 给 出 了 分 段 线性 激活 函数 的 深层 全 连接 网 络 凸 损失 函数 的 最 优点 集合 的 特征 . 
若 某 隐藏 层 宽度 大 于 训练 集 样 本 数量 ， 且 其 后 隐藏 层 宽度 逐 层 递减 ， 则 各 层 权 重 和 矩阵 均 满 秩 ， 
损失 函数 工 的 任意 a 水 平子 集 T。 ={9e Q|L(9) < Qa} 连通 ， 有 且 仅 有 一 个 包含 了 所 有 全 局 最 优 
点 的 连通 集 . 
3.3 临界 点 的 最 优 性 
徇 界 点 是 损失 函数 的 导数 为 零 的 点 ， 包 括 鞍 点 、 局 部 极 小 点 和 全 局 最 优点 ， 探 究 临 界 点 集 的 
性 质 ， 特 别 是 临界 点 的 最 优 性 ， 有 助 于 解释 损失 函数 易 优 性 . 

3.3.1 深层 线性 神经 网 络 
Kawaguchi 吗 给 出 了 线性 激活 函数 的 深层 网 络 损失 函数 在 临界 点 的 Hessian 矩 阵 半 正定 的 充 


分 条 件 ， 保 证 了 临界 点 集合 中 不 存在 局 部 极 小 点 . 在 XXT A XY” RRR, H YX (XXT) XY" 的 


不 同 特征 值 个 数 等 于 标签 向 量 维度 时 ， 临界 点 或 为 全 局 最 优点 或 为 鞍点 ， 且 任意 鞍点 的 Hessian 
矩阵 至 少 存在 一 个 负 特 征 值 . Lu 和 Kawaguchi “7 进一步 将 Kawaguchi "9 中 的 条 件 放宽 为 X 和 Y 行 
满 秩 ， 该 证 明 依 赖 于 矩阵 的 奇异 值 分 解 与 矩阵 奇异 空间 的 连续 性 . Zhou 和 Liang "FC fa X} 
Kawaguchi "9 中 的 网 络 参数 和 数据 矩阵 做 任何 假设 ， 利 用 权重 矩阵 分 解 即 可 证 明 临 界 点 集 的 局 
部 极 小 点 均 为 全 局 最 优点 ，Yun 等 吗 发 现 当 权重 矩阵 的 乘积 为 满 秩 矩阵 时 ， 1 损失 函数 的 临界 
点 只 能 为 全 局 最 优点 或 鞍点 ， 并 给 出 了 区 分 鞍点 和 全 局 最 优点 的 判 据 ， 即 权重 矩阵 乘积 为 满 秩 
矩阵 的 集合 内 的 临界 点 为 全 局 最 优点 ， 集 合 外 的 临界 点 则 为 鞍点 .针对 深层 线性 残 差 神经 网 络 ， 
Hardt 和 Ma BE 基于 残 差 网 络 的 恒 等 映 射 的 特殊 结构 ， 证 明了 当 网 络 权重 天 阵 的 谱 范 数 一 致 地 小 


3.3.2 深层 非 线性 神经 网 络 

部 分 研究 关注 不 同 的 非 线性 激活 函数 ， 比 如 ，ReLU 函数 、 解 析 激活 函数 、 光 滑 激活 函数 等 
对 临界 点 最 优 性 的 影响 . 

针对 ReLU 激 活 函 数 的 非 线 性 深层 神经 网 络 ，Kawaguchi "9 采用 了 Choromanska 等 2 中 的 部 
分 假设 ， 引 入 服从 伯 努 利 分 布 的 随机 向 量 ， 将 原 输出 预测 值 表示 为 数据 和 矩 阵 、 权 重 和 矩阵 和 随机 向 
量 的 乘积 ， 进 而 构建 了 损失 函数 的 期 望 ， 借 助 期 望 的 平均 特性 抵消 激活 函数 的 非 线性 ， 将 深层 
线性 神经 网 络 的 结论 推广 到 了 深层 非 线性 网 络 ， 即 临界 点 或 为 全 局 最 优点 或 为 通 点 . 

针对 解析 激活 函数 与 1 损失 函数 的 全 连接 深层 神经 网 络 ，Nguyen 和 Hein 中 讨论 了 临界 点 为 
全 局 最 优点 的 充分 条 件 . 利用 满 秩 和 矩阵 和 解析 函数 的 性 质 ， 证 明了 只 要 某 一 隐藏 层 宽度 大 于 输 
入 数据 维 数 ， 权 重 和 矩阵 从 第 k 层 开 始 是 行 满 秩 矩阵 ， 且 从 第 K 层 开始 网 络 节点 数 逐 级 减少 ， 则 
非 退 化 的 临界 点 就 是 全 局 最 优点 ， 且 不 存在 低 秩 的 局 部 极 小 点 ，Nguyen 和 Hein 3 进一步 研究 了 
卷 积 神经 网 络 中 的 临界 点 最 优 性 ， 将 卷 积 层 运 算 重 构 为 全 连接 层 计 算 形式 ， 发 现 了 在 所 有 满足 
使 第 k 层 输出 线性 独立 ，k+2 层 到 1 层 的 权重 矩阵 满 秩 的 网 络 参数 集合 中 ， 存 在 无 数 个 临界 点 ， 
这 些 临界 点 均 为 全 局 最 优点 . 

针对 光滑 激活 函数 的 非 线 性 神经 网 络 ，Yun 等 吗 定义 了 网 络 各 层 的 函数 空间 ， 将 损失 函数 
定义 为 网 络 各 层 映射 的 函数 ， 临 界 点 定义 为 使 损失 函数 对 任意 映射 的 Fréchet 导 数 为 零 的 点 ， 该 
研究 给 出 了 函数 空间 中 临界 点 为 全 局 最 优点 的 充分 条 件 ， 但 该 结论 无 法 推广 到 参数 空间 ， 函 数 
空间 中 不 存在 无 法 下 降 的 次 优点 ， 任 意 次 优点 在 函数 空间 中 都 存在 下 降 方向 ， 然 而 将 次 优点 对 
应 到 参数 空间 时 ， 其 在 函数 空间 的 下 降 方向 可 能 与 其 在 参数 空间 正 交 ， 因 而 该 次 优点 可 能 对 应 
于 参数 空间 的 局 部 极 小 点 . 
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#1 损失 函数 地 貌 特征 分 析 研 究 


作者 时 间 网 络 类 型 研究 方法 结论 及 适应 性 局 限 性 
Choromanska 2015 ReLU 激活 函数 的 二 ” 发现 了 深层 线性 神经 ”临界 点 位 于 以 全 局 最 ”输入 数据 需要 相互 独立 
等 分 类 全 连接 深层 神 ”网 络 的 损失 函数 和 自 ”优点 为 下 界限 定 的 有 

经 网 络 旋 玻 璃 模型 的 哈密 顿 ” 界 区 域 中 
量具 有 相似 的 性 质 
Kawaguchi"! 。 2016 深层 线性 神经 网 络 。“” 给 出 了 损失 函数 在 临 ”任意 局 部 极 小 点 都 是 ”输入 数据 需要 相互 独立 
界 点 处 Hessian 矩阵 ”全 局 最 优点 
半 正 定 的 充分 条 件 
ReLU 激活 函数 的 非 ”在 损失 函数 中 引入 随 ”任意 局 部 极 小 点 都 是 ”随机 变量 、 数 据 矩 阵 等 需 
线性 深层 神经 网 络 。 机 变量 , 借助 期 望 的 ”全 局 最 优点 要 满足 前 提 假设 
平均 特性 抵消 激活 函 
数 的 非 线 性 ,将 深层 
线性 网 络 的 结论 推广 
到 了 深层 非 线性 网 络 
Hardt 和 Ma ° 2016 线性 残 差 神经 网 络 。 给 出 了 损失 函数 对 权 “证 明了 当权 重 矩 阵 的 。 结论 适用 于 线性 残 差 神 
重 矩 阵 的 偏 导数 满足 ” 谱 范 数 一 致 地 小 时 ， 经 网 络 
的 不 等 式 所 有 临界 点 都 是 全 局 
最 优点 
Lu 和 2017 深层 线性 神经 网 络 。 ”利用 矩阵 奇异 值 分 解 X 和 YY 行 满 秩 时 ， 结论 仅 适用 于 深层 线性 
Kawaguchi ‘27 和 奇异 空间 连续 性 将 ”损失 函数 的 局 部 极 小 ”网 络 
深层 网 络 归 约 为 浅 层 。 点 均 为 全 局 最 优点 
网 络 
Zhou 和 Liang 2017 深层 线性 神经 网 络 。” 利 用 权重 矩阵 分 解 临界 点 集 的 局 部 极 小 ”结论 仅 适用 于 深层 线性 
[28] 点 均 为 全 局 最 优点 网 络 和 浅 层 非 线 性 网 络 
Nguyen 和 Hein 2017 解析 激活 函数 的 全 ”利用 满 秩 矩 阵 和 解析 非 退 化 的 临界 点 都 是 ”需要 输入 数据 线性 独立 ， 
iat 连接 深层 神经 网 络 。 函数 的 性 质 , 给 出 了 ”全 局 最 优点 , 且 不 存 ” 且 激 活 函 数 为 解析 函数 
临界 点 为 全 局 最 优点 “在 低 秩 的 局 部 极 小 点 
的 充分 条 件 
Yan 等 [中 2017 深层 线性 神经 网 络 。 ”给 出 了 损失 函数 值 对 “权重 矩阵 乘积 为 满 秩 ”需要 满足 权重 矩阵 的 乘 
权重 矩阵 的 偏 导 数 满 ” 甜 阵 的 集合 内 的 临界 “ 积 为 满 秩 矩阵 
足 的 不 等 式 点 为 全 局 最 优点 ， 集 
合 外 的 临界 点 为 鞍点 
光滑 激活 函数 的 非 。” 临界 点 为 使 得 损失 函 ”函数 空间 中 临界 点 为 ”结论 无 法 推广 到 参数 空 
线性 神经 网 络 数 对 任意 映射 的 ”全 局 最 优点 间 
Fréchet 导数 为 零 的 点 
Nguyen 和 Hein 2018 卷 积 神经 网 络 将 卷 积 层 运算 重 构 为 ”临界 点 都 是 全 局 最 优 激活 函数 为 解析 函数 ， 且 
[32] 全 连接 层 计算 , 研究 ”点 , 且 有 无 穷 多 个 没有 讨论 存在 池 化 层 的 
临界 点 的 最 优 性 卷 积 神经 网 络 
Garipov 等 5! 2018 深层 神经 网 络 最 优点 之 间 的 连通 性 ”发 现 可 以 找到 一 条 简 ”没有 给 出 损失 函数 地 貌 


的 全 面 特征 


作为 新 网 络 的 参数 ， 
则 新 网 络 在 训练 集 上 


的 损失 函数 值 与 原 网 
络 几 乎 一 致 
Cooper ©“ 2018 ReLU 激活 函数 的 全 ”利用 微分 几何 中 的 ”损失 函数 零点 集 为 非 ”没有 讨论 子 流 形 不 为 空 
连接 神经 网 络 Sard’ s 定理 分 析 局 部 ” 空 的 子 流 形 , 维 数 为 ” 集 的 更 广泛 条 件 
极 小 点 的 数量 和 空间 ”参数 个 数 与 样本 数量 
分 布 的 差 值 
Nguyen P9 2019 分 段 线 性 激活 函数 A 足够 宽 的 隐藏 ”全 局 最 优点 都 在 一 个 ”水 平 集 的 连通 性 无 法 保 
的 深层 全 连接 网 络 层 输出 线性 独立 与 连 。 连通 集中 , 没有 严格 ”证 梯度 下 降 算法 的 收敛 
通 集合 等 性 质 对 最 优 ”的 局 部 极 小 点 性 ,， 仅 直观 地 给 出 损失 函 
点 连通 性 进行 研究 数 地 貌 特 性 
Becker 和 Zhang 2020 ReLU 激活 函数 的 全 ”利用 随机 和 矩阵 和 代数 ”保持 参数 数量 不 变 ， 没有 给 出 临界 点 是 局 部 


[23] 


连接 神经 网 络 可 ， 发 现 了 损失 函 ”增加 网 络 深度 , 最 优 极 小 点 还 是 全 局 最 优点 
与 球形 旋转 玻璃 模 ”点 在 参数 空间 中 更 加 ”的 判 据 

型 的 哈密 顿 量 同 分 布 ， 聚集 
网 络 深度 的 函数 


4. 梯度 下 降 法 收敛 分 析 
KE T AARAA HA Gram 和 矩阵 等 对 梯度 下 降 算 法 进行 收敛 性 分 析 的 研究 


进展 . 
4.1 收敛 性 


神经 切线 核 (Neural Tangent Kernel) 为 研究 梯度 下 降 法 收敛 性 提供 了 一 个 冉 新 的 分 析 工 具 呈 . 
Jacot 等 中 发 现 了 隐藏 层 无 限 宽 的 神经 网 络 可 等 价 于 高 斯 过 程 ， 提 出 了 神经 切线 核 来 描述 网 络 动 


态 训练 过 程 . 


P 
es) = >>, F(0)® dg FM) (6) 


i=1 


其 中 ，@9 "为 层 数 为 工 的 深度 网 络 的 神经 切线 核 ，FE(6) 为 第 i RIL, 05 FOO) 为 第 工 层 


输出 对 参数 的 导数 ，@ 代表 克 罗 内 克 积 .Jacot 等 加 证 明了 损失 函数 在 参数 空间 的 梯度 下 降 等 价 


为 在 函数 空间 的 神经 切线 核 梯 度 下 降 ， 神 经 切线 核 的 正定 性 保证 了 梯度 下 降 法 收敛 ， 无 穷 宽 网 


络 1 损失 函数 沿 着 核 矩 阵 的 最 大 主 成 分 方向 收 和 敛 最 快 . Lee 等 多发 现 了 无 穷 宽 网 络 损失 函数 梯 


度 下 降 动 力学 特征 可 用 初始 化 参数 的 网 络 输出 一 阶 泰勒 展开 估计 ， 该 泰勒 展开 由 初始 化 参数 网 
络 的 神经 切线 核 和 网 络 输 出 确定 .证 明了 神经 切线 核 梯 度 下 降 全 局 收敛 ， 当 网 络 宽度 n 趋 于 无 


穷 大 时 ， 基 于 格 朗 沃 尔 不 等 式 证 明 网 络 实际 输出 与 一 阶 泰勒 展开 的 距离 小 于 O(1/ Vn). 


Chen 等 号 利用 神经 切线 核 随 机 特征 函数 吗 ， 在 初始 参数 邻 域内 用 一 阶 泰勒 展开 近似 网 络 
函数 ， 针 对 ReLU 激 活 函数 的 二 分 类 神经 网 络 ， 当 网 络 宽度 为 输入 维 数 对 数 的 多 项 式 函 数 时 ， 批 


4.2 收敛 速度 


量 梯 度 下 降 算 法 和 随机 梯度 下 降 算 法 具有 全 局 收敛 性 . 


Sankararaman 等 37 分 析 了 网 络 结构 对 小 批量 随机 梯度 下 降 算法 收敛 速度 的 影响 ， 小 批量 随 
机 梯度 下 降 算 法 每 次 从 训练 集中 选取 小 批量 的 样本 ， 获 得 在 小 批量 样本 上 的 梯度 后 ， 对 网 络 参 


数 进行 更 新 ， 然 而 ， 所 获得 的 梯度 可 能 负 相 关 ， 无 法 确定 损失 函数 的 下 降 方向 ， 这 一 现象 称 
梯度 混淆 ， 该 研究 发 现 ， 通 过 增加 网 络 宽 度 ， 可 以 降低 梯度 混淆 ， 加 速算 法 的 收敛 ,该 
结论 只 能 保证 小 批量 随机 梯度 下 降 算 法 可 以 收敛 到 一 个 稳定 点 ， 未 给 出 算法 收敛 到 全 局 最 优 
的 必要 条 件 . 
4.3 收敛 性 和 收敛 速度 

针对 复杂 性 较 低 的 深层 线性 神经 网 络 ，Arora 等 中 构造 了 权重 矩阵 的 限定 条 件 ， 证 明了 在 
恰当 的 学 习 率 下 ， 深 层 线 性 神经 网 络 损失 函数 值 以 一 定 概率 线性 收敛 到 全 局 最 优点 . 

Du 等 9 基于 Gram 和 矩阵 ， 分 析 了 批量 梯度 下 降 算 法 的 收敛 性 和 收敛 速度 ， 神 经 网 络 的 动力 
特征 说 明了 其 收敛 性 依赖 于 Gram 和 矩阵 的 最 小 特征 值 ， 从 初始 值 开始 控制 Gram 和 矩阵 的 最 小 特征 
1, 可 以 有 效 控制 其 下 界 ; 其 次 ， 当 神经 网 络 过 参数 化 时 ， 权 重 和 矩阵 会 接近 其 初始 值 ， 根 据 这 
布点 ， 假 设 Gram 矩阵 的 最 小 特征 值 总 大 于 零 ， 对 于 全 连接 的 前 馈 神 经 网 络 ， 当 每 层 网 络 中 的 神 
经 元 数量 随 网 络 深度 的 增加 呈 指 数 级 增长 时 ， 梯 度 下 降 算 法 会 在 合适 步 长 下 以 线性 速率 收敛 到 
零 损 失 函 数 ， 而 对 于 深层 残 差 网 络 和 卷 积 残 差 网 络 ， 实 现 同样 的 结果 只 要 求 每 层 网 络 的 神经 元 
数量 随 网 络 深度 呈 多 项 式 增长 ， 上 述 理论 结果 仅 适 用 于 光滑 激活 函数 或 者 利 普 希 菊 连续 的 激活 
函数 ， 损 失 函 数 为 1 ， 算 法 为 批量 梯度 下 降 算 法 的 情形 , 

Zou 和 Gu 中 发 现 了 当 随 机 初始 化 的 权重 参数 服从 高 斯 分 布 时 ， 且 当 隐 藏 层 的 节点 个 数 是 输 
入 数据 数量 、 数 据点 距离 以 及 隐藏 层 层 数 的 多 项 式 函 数 时 ， 利 用 批量 梯度 下 降 算法 和 随机 梯度 下 
降 算 法 在 初始 权重 附近 生成 微小 扰动 的 序列 ，ReLU 激 活 函 数 的 二 分 类 网 络 损失 函数 具备 较 好 的 
局 部 性 质 ， 能 保证 全 局 收 化 ， 收 敛 速度 与 假设 条 件 有 关 . 
假设 数据 不 退化 ， 且 各 隐藏 层 的 神经 元 数量 是 层 数 和 样本 数量 的 多 项 式 函 数 时 ，Allen-Zhu 
等 上 证 明了 损失 函数 具备 两 个 重要 的 性 质 ， 甚 一 ， 损 失 函 数 不 存 在 鞍点 ， 只 要 没有 收敛 到 全 局 
最 优点 ， 损 失 函 数 的 梯度 就 一 定 大 于 零 . 且 损失 函数 值 越 大 ， 损 失 函 数 梯度 的 模 长 就 越 大 ， 其 
NI 二 ， 损 失 函 数 具 备 半 光滑 性 ， 损 失 函 数 和 其 一 阶 近似 之 间 的 距离 很 小 ， 基 于 此 ， 针 对 ReLU 激 活 
函数 的 深层 网 络 ，Allen-Zhu 等 证 明了 批量 梯度 下 降 算 法 和 随机 梯度 下 降 算 法 线性 收敛 到 零 损 失 
函数 ， 当 激活 函数 光滑 时 ， 关 于 隐藏 层 神经 元 数量 的 条 件 还 可 以 进一步 放松 ， 即 当 隐 藏 层 神经 
元 数量 级 非常 小 时 ， 上 述 结论 依然 成 立 ，Allen-Zhu 等 四 将 上 述 结果 推广 到 了 ReLU 激 活 函 数 的 
循环 神经 网 络 ， 同 样 证 明了 循环 神经 网 络 损失 函数 不 存在 鞍点 ， 且 具有 半 光 请 性 ， 在 隐藏 层 神 
经 元 数量 是 层 数 与 样本 数量 的 多 项 式 函 数 时 ， 梯 度 下 降 算 法 使 得 损失 函数 线性 收敛 到 零 损 失 函 
数 ， 在 与 Allen-Zhu 等 中 相同 的 假设 条 件 下 ，Zou 和 Gu 中 降低 了 对 网 络 宽度 数量 级 和 优化 迭代 次 
数 的 要 求 ， 获 得 了 更 严格 的 梯度 下 界 和 更 精确 的 收敛 速度 ，Daniely 号 利用 随机 梯度 下 降 算 法 学 
习 共 办 核 空间 任意 函数 ， 证 明了 对 于 层 数 大 于 2 ADF login) 的 全 连接 、 卷 积 神经 网 络 ， 当 网 络 
尺寸 和 过 代 次 数 为 输入 输出 维 数 的 多 项 式 时 ， 随 机 梯度 下 降 法 能 在 多 项 式 时 间 内 收敛 到 零 损 失 


qk 


sw! > 


函数 . 
表 2 梯度 下 降 法 收敛 性 分 析 研究 
作者 时 间 ”网络 类 型 ” 研究 方法 结论 及 适应 性 局 限 性 

Daniely “7 2017 全 连接 神经 构建 了 神经 网 ”随机 梯度 下 降 法 能 在 多 ARTHA E E BR 
网 络 、 卷 积 神 ” 络 和 成 分 核 的 ”项 式 时 间 内 收敛 到 零 损 
经 网 络 对 侦 性 质 失 函数 

Arora 等 [38] 2018 深层 线性 神 ”提出 了 权重 矩 ” 在 恰当 的 学 习 率 下 , 损 “权重 矩阵 需要 满足 两 个 限制 条 件 
经 网 络 阵 的 限定 约束 ， 失 函 数值 以 一 定 概率 线 


构造 了 平衡 初 ”性 收敛 到 全 局 最 优点 
始 化 的 权重 算 
法 


Zou 等 [各 2018 ReLu 激活 函 ”证 明了 高 斯 随 ”批量 梯度 下 降 算法 和 随 ”结论 局 限于 离散 型 损失 函数 
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数 的 二 分 类 


深层 神经 网 


机 初始 化 权重 


机 梯度 下 降 算 法 能 保证 


若干 性 质 , 在 初 
始 权 重 附 近 生 
成 微小 扰动 的 


序列 具备 较 好 
的 局 部 性 质 ， 能 


全 局 收敛 


Jacot 等 [33] 2018 无 限 宽 神经 发 现 了 隐藏 层 ”证 明了 损失 函数 在 参数 ”为 研究 梯度 下 降 法 收敛 性 提供 了 
网 络 无 限 宽 网 络 等 ”空间 的 梯度 下 降 等 价 为 一 个 轩 新 的 分 析 工 具 ， 目 前 只 适 
价 于 高 斯 过 程 ， 在 函数 空间 的 神经 切线 于 宽度 趋 于 无 穷 的 网 络 
提出 了 神经 切 ” 核 梯度 下 降 , 神经 切线 
线 核 来 描述 网 核 正 定性 保证 梯度 下 降 
络 动态 训练 过 WECM, 无 穷 宽 网 络 损 
程 失 函 数 治 着 核 矩 阵 的 最 
大 主 成 分 方向 收敛 最 快 
Du 等 D9 2019 全 连接 神经 发 现 了 网 络 收 ”Gram 矩阵 最 小 特征 值 ”上述 理 论 结果 仅 适 用 于 光滑 激活 
网 络 、 深 层 残 ” 鳅 性 依赖 于 大 于 零 保 证 了 梯度 下 降 ”函数 或 者 利 普 希 茨 连续 的 激活 函 
差 网 络 和 卷 ”Gram 和 矩阵 的 最 ”算法 以 线性 速率 收敛 到 BY 
积 残 差 网 络 小 特征 值 , VE 零 损 失 函 数 
数 化 网 络 的 权 
重 和 矩阵 接近 其 
初始 值 
Allen-Zhu 等 0 2019 ReLU 激 活 函 “证 明了 损失 函 。” 证 明了 批量 梯度 下 降 算 给 出 了 宽度 的 多 项 式 阶 估计 , 但 
数 的 深层 网 “ 数 两 个 重要 性 ”法 和 随机 梯度 下 降 算法 ”对 于 实际 而 言 , 数量 级 仍 很 巨 
络 质 ， 即 不 存在 鞍 ”线性 收敛 到 零 损 失 函 数 
点 和 半 光 滑 性 
Allen-Zhu 等 “4 2019 ReLU 激 活 函 ”证 明了 循环 神 ”梯度 下 降 算法 使 得 损失 ” 需 满足 隐藏 层 神经 元 数量 是 层 数 
数 的 循环 神 经 网 络 损失 函 ”函数 线性 收敛 到 零 损失 ”与 样本 数量 的 多 项 式 函 数 的 条 件 
经 网 络 数 半 光 滑 且 不 ”函数 
存在 鞍点 
Zou 和 Gu [4 2019 ReLU 激 活 函 “ 在 初始 化 权重 ”获得 了 比 Alen-Zhu 等 降低 了 网 络 宽度 和 从 代 次 数 的 数 
数 的 全 连接 ”的 特定 邻 域 内 ， 59 更 严格 的 梯度 下 界 和 量 级 , 但 较 依 赖 于 高 斯 初始 化 
网 络 估计 损失 函数 ”更 精确 的 收敛 速度 
的 梯度 和 步 长 
上 界 ， 可 证 得 收 
敛 性 与 收敛 速 
度 ， 再 证 明 迭 代 
过 程 中 每 步 参 
数 都 在 该 邻 域 
内 
Lee 等 D4 2019 无 穷 宽 神经 损失 函数 梯度 ”神经 切线 核 梯度 下 降 全 ”结论 适用 于 无 穷 宽 网 络 


网 络 


下 降 动 力学 特 
征 可 用 初始 化 
参数 的 网 络 输 


局 收敛 


出 一 阶 泰勒 展 


估计 
Chen 等 25! 2019 ReLU 激 活 函 。 利 用 神经 切线 数据 分 离 条 件 下 ,网络 。 损失 函数 是 交叉 糖 损失 函数 ， 没 
数 的 二 分 类 ” 核 随机 特征 函 ”宽度 为 输入 维 数 对 数 的 。 有 考虑 连续 损失 函数 


神经 网 络 数 ， 初始 参数 ”多项式 函数 时 ,批量 梯 
邻 域内 阶 ” 度 下 降 算 法 和 随机 梯度 
泰勒 展开 近似 ”下降 算法 全 局 收敛 


网 络 函数 
Sankararaman 等 ”2020 全 连接 神经 ”发现 了 无 法 确 ”通过 增加 网 络 宽度 , 可 只 能 保证 小 批量 随机 梯度 下 降 算 
o 网 络 、 卷 积 神 ” 定 损失 函数 下 ”以 降低 梯度 混淆 ， 加 速 ”法 可 以 收敛 到 一 个 稳定 点 , 未 能 
经 网 络 降 方向 的 梯度 ”算法 的 收敛 , 保证 小 批 ”给 出 算法 收敛 到 全 局 最 优点 的 必 


混淆 现象 , 提出 ” 量 随机 梯度 下 降 算法 稳 条 件 
了 克服 梯度 温 。 定 收 全 

Yr DA te UE Me S 

速度 的 条 件 


5. 损失 函数 地 貌 可 视 化 


如 何 借助 仅 能 展示 二 维 或 三 维 信息 的 可 视 化 方法 ， 直 观 展示 损失 函数 的 高 维 地 貌 是 挑战 性 
的 研究 ， 本 节 回顾 了 基于 降 维 的 关键 信息 选取 法 ， 以 期 获得 信息 损失 较 小 的 损失 函数 地 貌 低 维 
展示 . 
5.1 滤波 器 归 一 化 法 

网 络 标 度 不 变性 是 指 对 权重 参数 进行 缩放 ， 而 不 影响 网 络 预 测 结果 的 性 质 ， 但 该 性 质 会 妨 
但 对 不 同 参数 下 损失 函数 进行 可 视 化 比较 .因此 需要 对 网 络 参数 进行 预 处 理 ， 去 除 网 络 标 度 不 
变性 对 可 视 化 的 影响 . 

滤波 器 归 一 化 法 (Filter Normalization) 是 去 除 网 络 标 度 不 变性 影响 的 一 种 有 效 方 法 a 
据 不 同 滤 波 器 的 范 数 对 二 维 坐标 的 方向 向 量 进行 归 一 化 ， 使 得 敏锐 度 和 泛 化 误差 具有 更 强 的 相 
关 性 ， 有 助 于 观察 损失 函数 在 某 些 点 附近 的 凸 性 ， 具体 而 言 ， 随 机 生成 与 网 络 参 数 相 同 维 数 的 
方向 向 量 ， 对 滤波 器 进行 归 一 化 ， 获 得 去 除 网 络 标 度 不 变性 的 方向 向 量 . Li 等 ! 多 利用 滤波 器 归 
一 化 方法 ， 对 残 差 网 络 的 损失 函数 地 舰 进行 了 可 视 化 分 析 ， 绘 制 了 损失 函数 在 最 小 点 上 任意 两 
个 随机 方向 的 等 高 线 图 ， 发 现 随 着 网 络 层 数 加 深 损失 函数 的 地 貌 结构 越发 混乱 ， 非 凸 性 增加 ， 
在 最 小 点 上 的 测试 误差 变 大 ， 表 明 极 值 点 泛 化 能 力 降 低 ， 一 个 有 趣 的 发 现 是 残 差 网 络 中 的 跳跃 
连接 结构 有 效 增加 了 最 小 点 邻 域 的 平坦 性 ， 阻 止 函 数 地 貌 癌 混乱 转变 . 
5.2 主 成 分 分 析 法 
主 成 分 分 析 法 (Principal Component Analysis) 通 过 正 交 变换 将 一 组 变量 转换 成 一 组 线性 不 相 
的 变量 ， 即 主 成 分 ， 通过 提取 部 分 主 成 分 ， 既 能 保留 原始 数据 大 部 分 信息 ， 又 能 起 到 降 维 的 
[45] 
Li 等 [ 鸣 将 各 次 欠 代 获得 的 网 络 参 数组 成 矩阵 ， 对 该 矩阵 使 用 主 成 分 分 析 法 ， 确 定 信息 量 
最 大 的 两 个 线性 不 相关 的 主 成 分 和 网 络 参数 在 主 成 分 上 的 投影 系数 . 将 投影 系数 作为 各 点 的 横 
纵 坐 标 ， 绘 制 随机 梯度 下 降 法 的 收敛 路 径 ， 标 明 损失 函数 的 等 高 线 ， 较 好 地 展示 下 降 路 径 的 动 
态 变化 . 
5.3 多 维 标 度 法 

多 维 标 度 法 (Multidimensional Scaling) 是 一 种 在 低 维 空间 展示 距离 数据 结构 的 分 析 技 术 ， 可 
以 保证 任意 一 对 点 在 高 维和 低 维 空间 距离 上 的 相似 性 6， 根据 距离 矩阵 构造 内 积 矩 阵 ， 选 择 
内 积 矩 阵 的 较 大 特征 值 和 对 应 的 特征 癌 量 来 构建 向 低 维 空间 的 投影 . 
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Liao 和 Poggio [7 以 深度 卷 积 神经 网 络 为 例 ， 用 多 维 标 度 法 对 参数 空间 进行 降 维 ， 利 用 距离 
矩阵 作为 相似 度 和 矩阵 ， 保 证 任意 两 个 参数 在 二 维 平 面 上 相对 距离 的 一 致 性 ， 给 出 了 随机 梯度 下 
降 算法 和 批量 梯度 下 降 算法 优化 损失 函数 时 的 收敛 路 径 ， 可 视 化 结果 表明 : 损失 函数 存在 多 个 
零 损失 点 ， 尺 管 微 小 扰动 会 导致 不 同 的 收敛 路 径 ， 但 从 任意 初始 点 出 发 均 可 收敛 全 局 最 优点 . 
5.4 PHATE 方法 

PHATE 方 法 (Potential of Heat diffusion for Affinity-based Transition Embedding) 是 一 种 基于 扩 
散 流 形 学 习 的 降 维 方 法 多， 利用 局 部 相似 性 对 局 部 信息 进行 编码 ， 再 用 点 对 之 间 的 相似 性 表 
示 扩 散 概率 ， 通 过 扩散 过 程 对 全 局 信息 进行 编码 ， 由 此 生成 距离 矩阵 ， 将 其 视 作 相似 度 窍 阵 ， 
使 用 多 维 标 度 法 ， 获 得 可 视 化 的 低 维 嵌 入 . 
借助 PHATE 方 法 ，Horoi 等 49 对 残 差 网 络 最 小 点 邻 域 的 损失 函数 曲面 的 崎 嵌 程度 进行 了 研 
究 ， 刻 画 曲面 特 征 与 泛 化 能 力 之 间 的 关系 ， Horoi 等 发 现 残 差 网 络 损失 函数 存在 多 个 零 损 失 点 ， 
但 不 同 点 的 泛 化 能 力 受 该 点 邻 域 地 貌 影响 ， 相 对 于 令 域 地 貌 崎 邮 不 平 的 极 小 点 ， 令 域 地 貌 较 平 
坦 的 极 小 点 的 泛 化 误差 较 小 . 


Kl 


6. 挑战 和 展望 


6.1 损失 函数 地 貌 分析 

1) 松弛 施加 于 训练 数据 和 网 络 参数 的 约束 : 为 了 便于 从 理论 上 分 析 损 失 函 数 的 地 貌 ， 历 史 
文献 对 训练 数据 集 和 网 络 参数 施加 了 多 种 限制 性 条 件 ， 如 输入 数据 相互 独立 [9 如 淹 、 激 活 函 数 
可 解析 [** 纱 测 、 网 络 宽度 数量 级 人 2 并 、 损 失 函 数 可 微 [六 等， 应 注重 离散 型 损失 函数 、 非 
光滑 激活 函数 、 训 练 集 分 布 任意 等 情形 下 的 损失 函数 地 貌 特征 分 析 . 

2) 关注 复杂 网 络 结构 的 损失 函数 地 貌 : 历史 文献 重点 关注 线性 网 络 9 并 和 全 连接 网 络 
[22-24, 26, 3 利用 和 矩阵 分 解 27 LAMBRA HE 名 等 ， 得 出 了 临界 点 最 优 性 的 判别 条 件 【 开 
2 应 关注 卷 积 、 递 归 等 复杂 神经 网 络 的 最 优 解 特征 等 
6.2 梯度 下 降 法 收敛 性 分 析 

1) 松弛 网 络 宽度 对 全 局 收敛 性 分 析 的 限制 : 历史 文献 基于 网 络 宽度 指数 阶 或 者 多 项 式 阶 的 
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假设 ， 分 析 了 梯度 下 降 算 法 的 全 局 收敛 性 9 39421 TE BE SST pd eR ELF RIT TT OL PE 
析 
= 2) 发 展 基 于 网 络 线性 化 近似 的 收敛 性 理论 : 神经 切线 核 将 梯度 下 降 动 力学 特征 表征 为 网 络 
一 输出 的 一 阶 泰勒 展开 ， 成 为 分 析 无 限 宽 网 络 收敛 性 的 新 颖 工具 3 98 96 信 ， 如 何 发 展 非 线性 网 
Ə 络 的 线性 化 近似 表达 ， 分 析 梯 度 下 降 法 的 收敛 性 ， 估 计 泛 化 误差 等 有 待 进一步 研究 . 
3) 实现 梯度 下 降 算法 的 加 速 : 加 速 梯度 下 降 算 法 以 提升 收敛 速度 ， 如 Pascanu 等 9 提出 了 


可 以 逃离 鞍点 的 快速 下 降 算 法 ，Arora 等 9 提出 了 平衡 初始 化 算法 实现 了 在 一 定 概率 下 收敛 于 
全 局 最 优点 . 
6.3 基于 损失 函数 地 貌 的 泛 化 误差 分 析 

损失 函数 地 貌 可 视 化 可 以 定性 给 出 地 貌 崎 邮 程 度 与 网 络 泛 化 能 力 的 关联 关系 ， 即 零 损 失 点 
A sae ee, UAE IZ eae ee RT IE RM LE PAO S, a 
视 化 方法 解释 网 络 的 泛 化 能 力也 是 一 个 值得 探索 的 方向 . 
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